Pandas數據結構有很多種,其中最為主要的結構就是Series
和DataFrame
。
Series:一維類似數組的對象,包含一組數據和一組相關的數據標籤(稱為其索引)。
這邊寫個簡單的範例,
先建立一個陣列資料
data = [1, 2, 3, 4]
再將資料透過pd.Series()
轉換成Series結構
dataSeries = pd.Series(data)
print(dataSeries)
印出資料如下。
0 1
1 2
2 3
3 4
dtype: int64
第一欄由上而下的0~3是各資料的索引值,
第二欄由上而下是資料裡指定的數值1~4。
而最下面顯示的dtype就是這些Series資料裡的型別,
也就是數字int64
。
而當Series資料裡混雜著不同型時,
情況如下。
dataSeriesObj = pd.Series([1, 2, "three", 4])
print(dataSeriesObj)
印出資料如下
0 1
1 2
2 three
3 4
dtype: object
可以看到型別就會別成物件object
。
資料型別也會影響到後續的應用,
所以在型別上都要特別注意呢。
DataFrame:一種二維、大小可變、潛在異構的表格數據結構,具有標籤軸(行和列)。
這邊先建立一個物件的資料如下,
分別是三個人員的資料
data = {
'MemberId': ['001', '002', '003'],
'Name': ['A', 'B', 'C'],
'Age': [43, 12, 58],
'City': ['New York', 'Los Angeles', 'Chicago']
}
再將資料透過pd.DataFrame()
轉換成DataFrame結構
df = pd.DataFrame(data)
print(df)
列印出的資料如下
MemberId Name Age City
0 001 A 43 New York
1 002 B 12 Los Angeles
2 003 C 58 Chicago
可以看到第一欄由上而下的0~2是各資料的索引值,
而DataFrame可以將資料表格化,
能更方便的閱讀與操作資料。
今天認識Pandas的數據結構,
多熟悉這結構對後面要整理數據是很有幫助的。